『ビッグデータオールスターズ 日本を代表するビッグデータエンジニア・マーケターが大集結!- 』に参加してきた
しんやです。今年の個人的鑑賞映画第1位は通算12回鑑賞した『シン・ゴジラ』で決まりかなーと思っていたのですが、先日観た『ドント・ブリーズ』というホラー(?)映画が年の瀬のここに来て衝撃的過ぎて第1位をどちらにしようか迷っております。
という訳で、先週渋谷のdots.にて開催された下記イベント『ビッグデータオールスターズ』の1日目に参加してきましたのでその内容をレポートしてみたいと思います。
ちなみに渋谷dots.個人的にはこの日訪れたのが初めてでした。
場所はこの辺。
入り口。
利用予定を記したカレンダー。
会場の雰囲気。写真右手側は階段状になっていて、そこにも座って作業をしたりイベント内容を鑑賞したりするスペースとなっていました。
フロアの脇にはこんな感じでくつろげるスペースも。トータルで非常に落ち着ける、また自由度の高いスペースだなと思いました。
目次
- Googleがめざす、誰もが使える機械学習
- Introduction to Apache Hivemall - A Treasure Data Solution -
- ASKUL LOCAHO データ活用による価値共創
- ビッグデータとFacebookで作る2017年のアドテクソリューション
- パネルディスカッション:『データトランスフォーメーションの第一歩 BI活用によるデータドリブン最前線!』
- パネルディスカッション:『データサイエンティストのコミュニティ最新動向!』
Googleがめざす、誰もが使える機械学習
- 登壇者:Google株式会社 佐藤 一憲 氏
セッション開始に先立って『ニューラルネットワークやディープラーニングを触った事がある人?』と挙手アンケートを実施(実際手が挙がったのは10人程)し、バズってはいるもののバリバリ業務で活用、改善をしたという話はそんなに聞かないですよね、と問いかけた佐藤さん。最近はディープラーニングやAIがワードとしてはバズってはいるものの、その詳細は把握しきれていないという人が大半。何がスゴイの?何が違うの?何で便利なのに普及していないのか、というポイントや課題について解説をして行く流れとなりました。以下メモ。
- ニューラルネットワーク=学習出来る関数。"便利な学習出来る関数』にすぎない。
- 例えば、猫の画像(RGB)を入れるとベクトルで解析して行列ベクトル、演算をひたすら行い、ベクトルが出力される。cat、人の顔、等のラベルが出て来る。これがニューラルネットワーク。
- 機械学習は学習データが必要。学習をうまいことやるとちゃんと答えてくれる。基本、あらゆる用途に適用可能。ゲームのサーバログデータからユーザーの動向をベクトルに数字として埋め、ニューラルネットワークに突っ込むともしかしたら何かチートしているプレイヤーの挙動を見つけられるかも知れない。また課金してくれそうなユーザーをフィルタリング学習するなんてこと出来るかもしれない。
Googleサービスを支える機械学習
- コンピュータは間違えまくる。なので直す。お手本データをつかって躾けていく。そうすると要領を得て来てパターンを学習して行く。これが今のAIブームの一番の理由。
- 近年、なぜ機械学習がバズっているのか?Alpha go、囲碁のAIが1つの理由。人間がプログラムしていない。コンピュータが試行錯誤して判断する。昔のAIはルールベース。ひたすら定石をデータベース化していた。
- Alpha GOが画期的だったのはAI同士で対戦させ、学習させる事でプロの棋士の想像を上回るような手を打つこともあるという点。
- ニューラルネットワークを使う事でプログラムせずともコンピュータが認識のかなめとなるデータの特徴を探し出す事が出来る。
- ディープラーニングによる認識の階層化:沢山階層を重ねてニューロンを作っていく。勝手に出来る模様。あらゆる画像を沢山覚え込ませて躾けていくと、自然とこのような模様が出来る。若干気持ち悪いw 物体を捉えるニューロン、画像模様を認識するニューロン。どんどん賢くなって物体の一部分を認識、そして画像を自然に認識するニューロンが出来てくる。
- Google検索ランキングでは、Rankbrainを使っている。出来るだけ有用な情報をディープラーニング。
- Gmailのスマートリプライ。コンテキストから自動生成し、モバイルアプリの10%の返信を占めている。
- 最近発表されたGoogle翻訳。品質が極端に上がった。これもニューラルネットワークを用いたもの。センテンスの意味を理解し、意味に一番近いセンテンスを探し、エンドツーエンドの翻訳を行う。流暢さが格段に向上。
- Alpha Goのチームによりデータセンターの冷却コストの最適化を行ったら40%低下。電力効率(PUE)も15%改善。これもディープラーニングで実現。
- 糖尿病、目の眼底画像で見つけられる。画像診断も医師より正確に。
- 音声合成の事例。ピアノ音楽を学習させるとどこからどう聞いてもピアノ音楽。法整備や著作権的なものはまだ整備されていない。まだ議論されていない。著作権フリーのコンテンツがバリバリ作られてしまう。
- 以上の利用事例をみても分かるように、GoogleでのDLの利用は年々増加している。
誰でも使える機械学習サービス
- 以下2つのラインナップを展開。
- 機械学習API:一般エンジニア向け、誰でも使える。
- 『TensorFlow』『Cloud Machine Learning』:カスタマイズ可能・機械学習エンジニア向け。
APIに関するものとして以下を紹介。
- Vision API - 画像コンテンツ分析 | Google Cloud Platform
- 飛行機のクラスタ。沢山の画像を入れると、学習して勝手にクラスタを作っている。
- デモ実演。ベンダさんに10日間で作ってもらった。
- 飛行機の画像:ボーイング747なんじゃないか。猫の画像は動物クラスタ。ペットなんじゃないか。というような感じで分析を行える。
- 不適切画像検知APIってのもあるけど、デモは出来ませんw ちなみにこのAPI、【ボケて】等でも使われている模様。
- Speech API - 音声認識 | Google Cloud Platform
- デモ:早口で話してもリアルタイムでやり取りを聞き取ってくれる。
- Cloud Natural Language API | Google Cloud Platform
- 日本語の情報処理も可能。形態素解析の分析を行なっている。
- Premium Edition | Translate API | Google Cloud Platform
- Google Translate API - 高速で動的なローカリゼーション | Google Cloud Platform
- プレミアム:一般公開では無く、ベータ版だが、非常に高い精度の翻訳が可能となる。
機械学習APIが適さない用途、というのもある。
- 特定用途向けの認識(医療CT/MRI画像からの病変部所の検知、車の画像から車種判定、工場製品の異常検知等)
- 画像や音声以外の様々なデータ分析(ゲームログ、製造、流通、IoT等)
こういったものについては、専用のニューラルネットワークの設計及び学習が必要となる。
TensotrFlow
- Googleが開発したオープンソースの機械学習ライブラリ。2015年11月に公開。Googleの多くのプロジェクトでも利用されている。
- 人気の最大の理由:使いやすいという点。ちょっとこれまでのものはとっつきづらかった。アルゴリズムを理解する必要があったがTensorFlowの場合は学習アルゴリズムを呼び出すだけで良い。
- 必要なものはGoogleが用意してくれる。そこまでがっちり理解していなくても試せる。
- 普及を阻む大きな理由:計算能力が必要。50段の学習だとすっごい遅い。GPUを使う。これ使うと10-50倍速くなる。
- 国内でDeepLearningをやる場合、2~3日掛かる。これが普及を阻む大きな理由。国内で先進的に利用している企業もスパコン並のマイクロ秒単位で動くインフラや環境の準備を行って対応している。
- それ(上記のような準備が必要)じゃちょっと無理でしょう→TensorFlowを使ってお手元の環境で試せます。CloudのGPUのクラスタ。TensorFlow以前以後でこれだけ便利になった。数万円で借りられるようになった。
- 関連勉強会は大人気。1回目の開催ではNHKも取材に来ていた。
TensorFlowで誰もが使えるDeepLearningへ
- 静岡のきゅうり農家、小池さん。
- 小池さんの息子さんのマコトさん、きゅうり栽培を手伝っている。仕分けをTensorFlowで実施。ラズパイで作っている。
- きゅうりの画像を9000枚取って学習させた。お母さんの言う通りにラベル付け。
- 70%の精度。普通のノートPCで実現出来た。
- すぎゃーんさんの『アイドル画像識別』の事例も紹介。
Googleクラウドによる大規模分散学習
- クラウドの規模の経済で専用LSIの開発。
- Googleのエンジニアにとってみれば、昼飯終わったら終わっている。この差がGoogleと我々の差。
- サービス紹介
- Cloud Machine Learning(Cloud ML)
- APIと訓練モデルのサービスを共に提供。
- 事例紹介:AUCNET。自動車ベンダー。
Introduction to Apache Hivemall - A Treasure Data Solution -
- 登壇者:トレジャーデータ株式会社 リサーチエンジニア 油井 誠 氏
冒頭にTreasure Data社の紹介、そしてメインはHivemallの機能紹介、使い方など。こちらに関連するスライド資料が(恐らくは少し前の版になるかと思いますが)展開されていましたので解説等は割愛致します。
ASKUL LOCAHO データ活用による価値共創
- 登壇者:アスクル株式会社 執行役員 ECマーケティング本部長 兼 テクノロジーオフィサー 佐藤 満 氏
こちらのセッションは写真撮影NGでしたので文字情報のみのメモで。
- LOHACO by ASKUL - 個人向け通販【最短当日お届け】
- LOHACOのコンセプト:第二世代のECサイト。水、食べ物などドラッグストアでカエルものをどうやって扱うか。
- 安かろう悪かろうでは無く、モチベーションの上がるデザインを。ウッド(Wood:木目調)が入っているのは社長のこだわり。エコな感じも出していこう、というもの。
- 売上は順調に成長中。
- 属性としては30-40代女性が中心。使われる場所は都市部が多い。
- 最短20分で出荷。アスクルだけど今は【今日来る】。
- 最短当日配送AM10時までであれば18時までに配送出来るネットワークを引いている。
- 重くてかさばるもの、お客様のニーズに応じて品揃えを拡充している。
- 3年間の展開で色々データが溜まってきており、時間と共に購買カテゴリーが増加している事が分かった。
- 米・洗剤のみ→ファンになって頂くと、1回で購入する量も増えてきた。安定して20%程度のお客様が当月買って翌月も買っている。
- 顧客満足度が成長の源泉。(成長のグラフの見え方から)"ミルフィーユ"と呼んでいる。
- 当社最大(甲子園4.5個分)8番目の物流センターを今後新設予定。
- 物流センターも24時間稼働体制へ。コストも下げ、効率を上げてサービスに還元してく事を目指す。
- 待たない幸せ。Happy on Timeという新しい配送サービスを展開。電気自動車による配送。より【お待たせしない】サービスを実現。
- 時間の精度:1時間(デフォルト):ルーティングが決まると30分単位、更には10分前というようなアクションも。
- データで見る介護に関するライフステージ:
- 大人用おむつを買しいそうになるお客様は前に何を買っているか?消臭在とかやわらかごはん等、実情が分かるような"鬼気迫る"部分も見えてくる。
- サントリー胡麻麦茶20回以上購入のお客様:
- 健康なので買った人のデモグラをみると年齢は高い。50歳以上、ロハコ全体と比較するとそのような傾向アリ
- 20回以上のリピーターとなると急激に年齢が下がり、30歳以上男性の購入比率が増大。同じような品物を買っている。リフト値が半端ない感じであがっている。一方でアルコールも増えているw →【お酒で上がる血圧を胡麻麦茶でなんとかしたい免罪符トクホユーザー】
- お客様のライフスタイルがデータに。最適なオファーをパーソナライズ。
- 私達が考えるECの精神
- ロハコECサイトラボ 102社にご参加頂いている。データ分析勉強会を行なっている。
- 購買行動の見える化を実施:カテゴリ毎の併売相関性の高さを可視化。
- ECならではの商品の誕生:トイレットペーパーの開発。安心ブラントの長尺化。(6ロール50m巻き/6ロール75m巻き。従来は12ロール25m巻き)/お客様のメリットと販売者側のメリット、双方にメリット。ロハコのお客様のスタンダードに。
- 2015年(昨年):TOKYO DESIGN WEEKへ出展。21社が参加
- いままでの商品デザインは:店頭でいかに目立つデザインにするか。店頭を通らない生活者起点のデザインへ。EC限定で販売。通常リセッシュの12倍の実績を達成。『出しっぱなしに出来る』『利用頻度が上がる』等でリピート頻度の効果も。併売高リフト商品はデザイン系が独占する形になっている。
- TOKYO Midtown Design touch 2016:くらしに馴染むロハコ展開催。
- ECマーケティングラボを通じて、ECをブルーオーシャンに。競争から共創へ。
ビッグデータとFacebookで作る2017年のアドテクソリューション
- 登壇者:
Facebookに於ける数少ない日本勤務メンバーの1人である安藤さん。Facebookがどういうビッグデータ系技術を扱っているのかについての解説が行われたセッションとなりました。
基本的には、以下のサイトに関連するテクノロジーの情報はあるとの事。
マーケティングオートメーションとシグナル
- Facebookそのものは大きなマシンラーニングのプラットフォーム。様々な情報を分析している。誰がどういふ風につながっているのか、いいねの良いフィードバック、報告等のネガティブなフィードバック、位置情報。広告配信数、ユーザーのコンバージョン、広告閲覧時間等などを全世界的に分析。
- Machine Learningをどういう方向でチューニングしているのか:基本的には『ユーザー第一』で実施している。儲かる方に倒すのは簡単。だけどそういう事は絶対にしないようにしている。
- Facebookの広告インプレッションは少ない。実際同じ広告は1日最大2回までしか表示させていない。
- FBのプラットフォームに対応したアドテクの形態
- マーケティングAPI:オーディエンス管理、広告管理(入稿ツール)、広告のインサイト(レポーティング)、シグナルを管理
- シグナル:ユーザーがfbに対して送ってくるもの。
- Facebookピクセル(Webページ上でのコンバージョンを追跡)
- App Event(モバイルアプリ内でのイベントを追跡)
- オフラインコンバージョン(オフラインでの購買等、リアルな出来事を追跡)
- 人々は今も店舗で購買をしている。Eコマースが成長している現時点においても店舗での購買は90%超を占めている状態。
- また、オンラインであっても成果を追跡しづらいケースは多い。コールセンター/多段階の購買/ゲーム機経由/非リアルタイムな決済
FacebookオフラインコンバージョンAPI
- FacebookオフラインコンバージョンAPI
- クロスチャネル:広告投資と購買をクロスチャネルで関連付け
- 人ベース:顧客へのインパクトを知る
- リアルタイム:タイムリーな情報を元に意思決定
- 手順:
- 1.広告と着信を紐付け
- 2.クロスセルとアップセルを促進
- 3.新しい顧客を開拓
- データはハッシュ化されており、プライバシーは守られている
- オフラインコンバージョンAPIではトランザクションをキャンペーンのオーディエンスに照らし合わせて成果を判断
- また、その他機能(Custom Audiences/Lift Tools/Atlas)とも連携
- オフラインコンバージョン
- ビジネスマネージャからの操作で運用が可能
- リアルタイム性等を求めない、ワンタイムの運用を想定
- 詳細:ビジネスマネージャの概要
パネルディスカッション:
『データトランスフォーメーションの第一歩 BI活用によるデータドリブン最前線!』
- パネラー:Datorama Japan株式会社 代表取締役/カントリーマネージャー 布施 一樹 氏
- パネラー:Tableau Japan 株式会社 テクノロジーエバンジェリスト、シニアセールスコンサルタント 並木 正之 氏
御二方による各社製品紹介の後、分析が出来る環境づくり、また分析を価値提供に繋げて『金を稼ぐ』というところへ持っていくための組織づくりについてのディスカッションがなされました。『分析の価値は意思決定の寄与度x意思決定の重要性であり、忘れがちな部分だが分析をすることが価値ではない、分析した内容が世の中にどれだけ役に立つか。現場が目標達成するには役にたつものから逆引きして行くべき。』『労力を本質の部分、即ちビジネス課題を見つけたり、意思決定を行う部分に割いていく事が重要』といった示唆に富む意見が出されました。
Tableau並木さんは『記述統計』の要素が大事だとコメントし、有用な情報としてTableau Server10.0及びTableau Publicで利用出来る、Tableauの内容を自然言語で視覚化するChrome拡張機能について紹介。これは別途エントリを分けて試してみたいと思います。
組織のコアとして、分析が出来る・分析というノウハウ自体を自社で活用出来る組織力を持ったデータドリブンな会社にしていく事が重要なのでは、そこにBIxAIを絡めていくといった興味深い展開に話が転がりそうなところでタイムアップ。
パネルディスカッション:
『データサイエンティストのコミュニティ最新動向!』
- パネラー:株式会社ブレインパッド 代表取締役会長 草野 隆史 氏
- パネラー:DATUM STUDIO 株式会社 里 洋平 氏
- パネラー:DeNA Analytics Architect 濱田 晃一 氏
次のセッションもパネルディスカッション。『データサイエンティストのコミュニティ最新動向!』と題してコミュニティの最新動向、今後データサイエンティストに求められるスキルや素養について御三方からの貴重な提言を頂く事が出来ました。『機械学習のベースを理解しつつオープンなコミュニティで課題を共有』『研究レベルの(機械学習に関する)論文を読んで実際に試してみること。機械学習の世界は2週間でその情勢が大きく変わる可能性がある』『コミュニティを利用して、先進的な業界の人たちと交流を持つこと』等など、コミュニティを上手く活用してノウハウや課題を共有しつつ、実践を繰り返していく事の重要さを三者共に強調していたのが印象的でした。
さいごに
という訳で『ビッグデータオールスターズ』に関するイベントレポートでした。個人的には社外のイベントに参戦し、参戦レポートを書くのは久し振りで『リハビリ』も兼ねていたのですが、復帰戦とするにはかなりヘビーなボリュームとなってしまいましたw 新たに興味関心を引くトピックや情報を入手出来たので冬休み・年末年始の期間を使って対象テーマの深掘りを行ってみたいと思います。こちらからは以上です。
(※懇親会は関係者へのご挨拶等を軽く済ませるに留め、この日公開初日となった例のスピンオフ映画を観に行ってました)